This project leverages advances in multi-agent reinforcement learning (MARL) to improve the efficiency and flexibility of order-picking systems for commercial warehouses. We envision a warehouse of the future in which dozens of mobile robots and human pickers work together to collect and deliver items within the warehouse. The fundamental problem we tackle, called the order-picking problem, is how these worker agents must coordinate their movement and actions in the warehouse to maximise performance (e.g. order throughput) under given resource constraints. Established industry methods using heuristic approaches require large engineering efforts to optimise for innately variable warehouse configurations. In contrast, the MARL framework can be flexibly applied to any warehouse configuration (e.g. size, layout, number/types of workers, item replenishment frequency) and the agents learn via a process of trial-and-error how to optimally cooperate with one another. This paper details the current status of the R&D effort initiated by Dematic and the University of Edinburgh towards a general-purpose and scalable MARL solution for the order-picking problem in realistic warehouses.
translated by 谷歌翻译
多代理游戏中的均衡选择是指选择帕累托最佳平衡的问题。已经表明,由于每个代理商在训练过程中对其他代理商的政策的不确定性,许多最先进的多机构增强学习(MARL)算法容易融合到帕累托主导的平衡。为了解决次优的平衡选择,我们提出了一种使用无关紧要游戏的简单原则(具有相同奖励的超级合作游戏)的参与者批评算法(PAC):每个代理人都可以假设其他人会选择动作的动作这将导致帕累托最佳平衡。我们评估了PAC在一系列多种多样的游戏中,并表明与替代MARL算法相比,它会收敛到更高的情节回报,并在一系列矩阵游戏中成功收敛到帕累托优势。最后,我们提出了一个图形神经网络扩展,该扩展可以在具有多达15个代理商的游戏中有效地扩展。
translated by 谷歌翻译
可以与其他代理人互动以完成给定任务的自主代理的发展是人工智能和机器学习研究的核心领域。为了实现这一目标,自主代理研究小组开发了用于自主系统控制的新型机器学习算法,特别关注深度强化学习和多代理强化学习。研究问题包括可扩展的协调代理政策和代理间沟通;从有限观察的情况下对其他代理的行为,目标和组成的推理;以及基于内在动机,课程学习,因果推断和代表性学习的样品学习。本文概述了该小组正在进行的研究组合,并讨论了未来方向的开放问题。
translated by 谷歌翻译
实现安全和强大的自主权是通往更广泛采用自动驾驶汽车技术的道路的关键瓶颈。这激发了超越外在指标,例如脱离接触之间的里程,并呼吁通过设计体现安全的方法。在本文中,我们解决了这一挑战的某些方面,重点是运动计划和预测问题。我们通过描述在自动驾驶堆栈中解决选定的子问题所采取的新方法的描述,在介绍五个之内采用的设计理念的过程中。这包括安全的设计计划,可解释以及可验证的预测以及对感知错误的建模,以在现实自主系统的测试管道中实现有效的SIM到现实和真实的SIM转移。
translated by 谷歌翻译
临时团队合作(AHT)是创建一个必须与以前看不见的队友合作而没有事先协调的问题。许多现有的AHT方法可以归类为基于类型的方法,这些方法需要一组预定义的队友进行培训。为训练设计队友类型是一个具有挑战性的问题,它决定了在训练期间与队友类型打交道时的代理商的概括性能。在这项工作中,我们提出了一种基于最大化最佳响应多样性指标的不同队友类型的方法。我们表明,我们提出的方法会产生队友类型,这些类型需要在协作期间从学习者那里获得更广泛的最佳反应,这可能会提高学习者在AHT中的稳健性与替代方法相比。
translated by 谷歌翻译
我们提出了小说的少量团队合作(FST)问题,在该问题中,在团队中训练有素的熟练代理人完成一项任务与来自不同任务的熟练代理相结合,并且必须共同学习适应一个看不见但相关的任务。我们讨论如何将FST问题视为解决两个单独的问题:一种减少培训代理团队完成复杂任务所需的经验;与陌生队友合作完成了一项新任务。解决FST的进展可能会导致多方面的强化学习和临时团队合作的进步。
translated by 谷歌翻译
在现实世界的机器人技术应用中,强化学习(RL)代理通常无法推广到训练过程中未观察到的环境变化。对于基于图像的RL而言,此问题已加强,其中一个变量(例如背景颜色)的更改可以更改图像中的许多像素,并且又可以改变图像代理的内部表示中的所有值。为了了解更多可靠的表示形式,我们引入了时间分离(TED),这是一项自制的辅助任务,可通过RL观察的顺序性质导致分离表示表示。我们从经验上发现,与最先进的表示方法相比,使用TED作为辅助任务的RL算法更快地适应了通过持续培训的环境变量的变化。由于表示形式的分解结构,我们还发现,经过TED训练的策略可以更好地概括地看不见的变量值与任务无关(例如背景颜色)以及影响最佳策略(例如目标目标位置)的变量值的看不见值。
translated by 谷歌翻译
成功部署多机构强化学习通常需要代理来适应其行为。在这项工作中,我们讨论了团队合作适应的问题,其中一组代理团队需要调整其政策以通过有限的微调解决新的任务。由代理人需要能够识别和区分任务以使其行为适应当前任务的直觉的动机,我们建议学习多代理任务嵌入(MATE)。这些任务嵌入方式是使用针对重建过渡和奖励功能进行优化的编码器架构训练的,这些功能唯一地识别任务。我们表明,在提供任务嵌入时,一组代理商可以适应新颖的任务。我们提出了三个伴侣训练范例:独立伴侣,集中式伴侣和混合伴侣,这些伴侣在任务编码的信息中有所不同。我们表明,伴侣学到的嵌入识别任务,并提供有用的信息,哪些代理在适应新任务期间利用了哪些代理。
translated by 谷歌翻译
当用于自动驾驶时,目标识别可以更准确地预测其他车辆的未来行为。砂砾的最新目标识别方法已被证明是快速,准确,可解释和可验证的。在自动驾驶中,车辆可能会遇到训练期间看不见的新型场景,并且由于阻塞而部分可观察到环境。但是,砂砾只能在固定框架方案中运行,具有完整的可观察性。我们提出了一种新颖的目标识别方法,名为目标识别,并在封闭(OGRIT)下使用可解释的树,该方法解决了这些砂砾的这些缺点。我们证明,由于阻塞,Ogrit可以在不同的方案和处理丢失的数据之间进行概括,同时仍然快速,准确,可解释和可验证。
translated by 谷歌翻译
从像素中学习控制很难进行加固学习(RL)代理,因为表示和政策学习是交织在一起的。以前的方法通过辅助表示任务来解决这个问题,但他们要么不考虑问题的时间方面,要么仅考虑单步过渡。取而代之的是,我们提出了层次结构$ k $ -Step Letent(HKSL),这是一项辅助任务,通过向前模型的层次结构来学习表示形式,该层次结构以不同的步骤跳过的不同幅度运行,同时也学习在层次结构中的级别之间进行交流。我们在30个机器人控制任务的套件中评估了HKSL,发现HKSL要么比几个当前基线更快地达到更高的发作回报或收敛到最高性能。此外,我们发现,HKSL层次结构中的水平可以学会专注于代理行动的长期或短期后果,从而为下游控制政策提供更有信息的表示。最后,我们确定层次结构级别之间的通信渠道基于通信过程的两侧组织信息,从而提高了样本效率。
translated by 谷歌翻译